首页> 外文OA文献 >MUTAN: Multimodal Tucker Fusion for Visual Question Answering
【2h】

MUTAN: Multimodal Tucker Fusion for Visual Question Answering

机译:mUTaN:用于视觉问答的多模式Tucker融合

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.
机译:双线性模型为视觉问答(VQA)任务中的混合和合并信息提供了一个有吸引力的框架。它们帮助学习问题含义和图像中视觉概念之间的高级关联,但是它们遭受着巨大的尺寸问题。我们引入MUTAN,一种基于多模量张量的Tucker分解,以有效地实现视觉和文本表示之间的参数化双线性交互。除Tucker框架外,我们还设计了一种基于矩阵的低秩分解,以明确限制交互等级。使用MUTAN,我们可以控制合并方案的复杂性,同时保持良好的可解释性融合关系。我们将展示MUTAN模型如何概括一些最新的VQA架构,并提供最新的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号